技能在就业市场和许多人力资源(HR)过程中起着核心作用。在其他数字经验之后,当今的在线工作市场有候选人希望根据他们的技能看到正确的机会。同样,企业越来越需要使用数据来确保其劳动力中的技能保持未来。但是,有关技能的结构化信息通常缺少,并且基于自我或经理评估的流程已证明与所得数据的采用,完整性和新鲜度有关。鉴于明确或仅隐含地描述了数千种可能的技能标签,并且缺乏精细注释的培训语料库,提取技能是一项艰巨的任务。以前的技能提取工作过于简化任务,将其用于明确的实体检测任务,或者基于手动注释的培训数据,如果应用于完整的技能词汇,这是不可行的。我们根据遥远的字面匹配,提出了一个用于技能提取的端到端系统。我们提出并评估了几种负面验证数据集中的几种负面抽样策略,以提高技能提取对隐式提及技能的推广,尽管在遥远的监督数据中缺乏这种隐性技能。我们观察到,使用ESCO分类法从相关技能中选择负面示例会产生最大的进步,并且在一个模型中结合三种不同的策略进一步提高了性能,在RP@5中最多可达8个百分点。我们介绍了基于ESCO分类法的手动注释评估基准,以进行技能提取,并在其上验证模型。我们发布基准数据集以进行研究目的,以刺激对任务的进一步研究。
translated by 谷歌翻译